UnicodeUtils.java example

Explorer

gbif-api-master
- src
  - main
    - java
      - org
        gbif
        api
        exception
        ServiceUnavailableException.java
        UnparsableException.java
        jackson
        ExtensionDeserializer.java
        ExtensionKeyDeserializer.java
        ExtensionSerializer.java
        LicenseSerde.java
        RankSerde.java
        TermMapListDeserializer.java
        TermMapListSerializer.java
        model
        Constants.java
        checklistbank
        DatasetMetrics.java
        Description.java
        Distribution.java
        NameUsage.java
        NameUsageContainer.java
        NameUsageExtension.java
        NameUsageMatch.java
        NameUsageMediaObject.java
        NameUsageMetrics.java
        ParsedName.java
        Reference.java
        SpeciesProfile.java
        TableOfContents.java
        TypeSpecimen.java
        VerbatimNameUsage.java
        VernacularName.java
        search
        NameUsageSearchParameter.java
        NameUsageSearchRequest.java
        NameUsageSearchResult.java
        NameUsageSuggestRequest.java
        NameUsageSuggestResult.java
        common
        DOI.java
        DoiData.java
        DoiStatus.java
        Identifier.java
        InterpretedEnum.java
        InterpretedField.java
        LinneanClassification.java
        LinneanClassificationKeys.java
        MediaObject.java
        User.java
        UserPrincipal.java
        messaging
        Request.java
        Response.java
        ResponseChain.java
        paging
        Pageable.java
        PageableBase.java
        PagingConstants.java
        PagingRequest.java
        PagingResponse.java
        search
        Facet.java
        FacetedSearchRequest.java
        SearchConstants.java
        SearchParameter.java
        SearchRequest.java
        SearchResponse.java
        SpellCheckResponse.java
        crawler
        CrawlJob.java
        DatasetProcessStatus.java
        DwcaValidationReport.java
        FinishReason.java
        GenericValidationReport.java
        OccurrenceValidationReport.java
        ProcessState.java
        metrics
        RecordError.java
        cube
        Dimension.java
        OccurrenceCube.java
        ReadBuilder.java
        Rollup.java
        package-info.java
        occurrence
        Download.java
        DownloadFormat.java
        DownloadRequest.java
        FactOrMeasurment.java
        Occurrence.java
        OccurrenceRelation.java
        VerbatimOccurrence.java
        predicate
        CompoundPredicate.java
        ConjunctionPredicate.java
        DisjunctionPredicate.java
        EqualsPredicate.java
        GreaterThanOrEqualsPredicate.java
        GreaterThanPredicate.java
        InPredicate.java
        IsNotNullPredicate.java
        LessThanOrEqualsPredicate.java
        LessThanPredicate.java
        LikePredicate.java
        NotPredicate.java
        Predicate.java
        SimplePredicate.java
        WithinPredicate.java
        search
        OccurrenceSearchParameter.java
        OccurrenceSearchRequest.java
        registry
        Address.java
        Citation.java
        Comment.java
        Commentable.java
        Contact.java
        Contactable.java
        Dataset.java
        DatasetOccurrenceDownloadUsage.java
        Endpoint.java
        Endpointable.java
        Identifiable.java
        Identifier.java
        Installation.java
        LenientEquals.java
        MachineTag.java
        MachineTaggable.java
        Metadata.java
        Network.java
        NetworkEntity.java
        Node.java
        Organization.java
        PostPersist.java
        PrePersist.java
        Tag.java
        Taggable.java
        eml
        Collection.java
        DataDescription.java
        KeywordCollection.java
        Keywords.java
        Project.java
        SamplingDescription.java
        TaxonomicCoverage.java
        TaxonomicCoverages.java
        curatorial
        CuratorialUnit.java
        CuratorialUnitComposite.java
        CuratorialUnitCount.java
        CuratorialUnitRange.java
        CuratorialUnitType.java
        geospatial
        BoundingBox.java
        Geometry.java
        GeospatialCoverage.java
        Point.java
        Polygon.java
        temporal
        DateRange.java
        SingleDate.java
        TemporalCoverage.java
        VerbatimTimePeriod.java
        VerbatimTimePeriodType.java
        metasync
        MetasyncHistory.java
        MetasyncResult.java
        search
        DatasetSearchParameter.java
        DatasetSearchRequest.java
        DatasetSearchResult.java
        DatasetSuggestRequest.java
        DatasetSuggestResult.java
        service
        checklistbank
        DatasetMetricsService.java
        DescriptionService.java
        DistributionService.java
        IdentifierService.java
        MultimediaService.java
        NameParser.java
        NameUsageExtensionService.java
        NameUsageMatchingService.java
        NameUsageSearchService.java
        NameUsageService.java
        ParsedNameService.java
        ReferenceService.java
        SpeciesProfileService.java
        TypeSpecimenService.java
        VernacularNameService.java
        common
        CrudService.java
        IdentityService.java
        SearchService.java
        SuggestService.java
        UserService.java
        crawler
        DatasetProcessService.java
        metrics
        CubeService.java
        occurrence
        DownloadRequestService.java
        OccurrenceCountryIndexService.java
        OccurrenceDatasetIndexService.java
        OccurrenceDistributionIndexService.java
        OccurrenceSearchService.java
        OccurrenceService.java
        registry
        CommentService.java
        ContactService.java
        DatasetOccurrenceDownloadUsageService.java
        DatasetProcessStatusService.java
        DatasetSearchService.java
        DatasetService.java
        EndpointService.java
        IdentifierService.java
        InstallationService.java
        MachineTagService.java
        MetasyncHistoryService.java
        NetworkEntityService.java
        NetworkService.java
        NodeService.java
        OccurrenceDownloadService.java
        OrganizationService.java
        TagService.java
        util
        ClassificationUtils.java
        DatasetKey.java
        HttpURI.java
        IdentifierUtils.java
        IsoDateParsingUtils.java
        LengthUtils.java
        MachineTagUtils.java
        SearchTypeValidator.java
        URIValidator.java
        UnicodeUtils.java
        VocabularyUtils.java
        formatter
        TemporalCoverageFormatterVisitor.java
        iterables
        DatasetBasePager.java
        DatasetConstituentPager.java
        DatasetPager.java
        EntityPager.java
        InstallationPager.java
        Iterables.java
        NetworkPager.java
        NodeDatasetPager.java
        NodeOrganizationPager.java
        NodePager.java
        OrgHostingPager.java
        OrgPublishingPager.java
        OrganizationPager.java
        vocabulary
        BasisOfRecord.java
        CitesAppendix.java
        ContactType.java
        Continent.java
        Country.java
        DatasetSubtype.java
        DatasetType.java
        EndpointType.java
        EstablishmentMeans.java
        Extension.java
        GbifRegion.java
        Habitat.java
        IdentifierType.java
        InstallationType.java
        InterpretationRemark.java
        InterpretationRemarkSeverity.java
        Kingdom.java
        Language.java
        License.java
        LifeStage.java
        MaintenanceUpdateFrequency.java
        MediaType.java
        MetadataType.java
        NamePart.java
        NameType.java
        NameUsageIssue.java
        NodeType.java
        NomenclaturalCode.java
        NomenclaturalStatus.java
        OccurrenceIssue.java
        OccurrencePersistenceStatus.java
        OccurrenceSchemaType.java
        OccurrenceStatus.java
        Origin.java
        ParticipationStatus.java
        PreservationMethodType.java
        ProcessingErrorType.java
        Rank.java
        RelationType.java
        Sex.java
        TagName.java
        TagNamespace.java
        TaxonomicStatus.java
        TechnicalInstallationType.java
        ThreatStatus.java
        TypeDesignationType.java
        TypeStatus.java
        UserRole.java
  - test
    - java
      - org
        gbif
        api
        SerdeTestUtils.java
        jackson
        LicenseSerdeTest.java
        RankSerdeTest.java
        model
        checklistbank
        DatasetMetricsTest.java
        DescriptionTest.java
        DistributionTest.java
        NameUsageContainerTest.java
        NameUsageMediaObjectTest.java
        NameUsageTest.java
        ParsedNameTest.java
        ReferenceTest.java
        SpeciesProfileTest.java
        TypeSpecimenTest.java
        VerbatimNameUsageTest.java
        VernacularNameTest.java
        common
        DOITest.java
        DoiDataTest.java
        IdentifierTest.java
        MediaObjectTest.java
        UserPrincipalTest.java
        UserTest.java
        paging
        PagingRequestTest.java
        PagingResponseTest.java
        search
        FacetCountTest.java
        FacetTest.java
        SearchRequestTest.java
        SearchResponseTest.java
        crawler
        CrawlJobTest.java
        DatasetProcessStatusTest.java
        DwcaValidationReportTest.java
        GenericValidationReportTest.java
        OccurrenceValidationReportTest.java
        metrics
        RecordErrorTest.java
        cube
        ReadBuilderTest.java
        occurrence
        DownloadRequestTest.java
        OccurrenceTest.java
        VerbatimOccurrenceTest.java
        predicate
        CompoundPredicateTest.java
        InPredicateTest.java
        LikePredicateTest.java
        NotPredicateTest.java
        SimplePredicateTest.java
        WithinPredicateTest.java
        registry
        ContactTest.java
        DatasetTest.java
        IdentifierTest.java
        NetworkTest.java
        NodeTest.java
        OrganizationTest.java
        TagTest.java
        eml
        ProjectTest.java
        util
        ClassificationUtilsTest.java
        DatasetKeyTest.java
        IdentifierUtilsTest.java
        IsoDateParsingUtilsTest.java
        LengthUtilsTest.java
        SearchTypeValidatorDoubleRangeTest.java
        SearchTypeValidatorIntegerRangeTest.java
        SearchTypeValidatorTest.java
        UnicodeUtilsTest.java
        VocabularyUtilsTest.java
        formatter
        TemporalCoverageFormatterVisitorTest.java
        vocabulary
        ContactTypeTest.java
        ContinentTest.java
        CountryTest.java
        DatasetSubtypeTest.java
        DatasetTypeTest.java
        ExtensionTest.java
        IdentifierTypeTest.java
        InterpretationRemarkTest.java
        KingdomTest.java
        LanguageTest.java
        LicenseTest.java
        MaintenanceUpdateFrequencyTest.java
        NameTypeTest.java
        NomenclaturalStatusTest.java
        RankTest.java
        TaxonomicStatusTest.java
        TypeStatusTest.java

package org.gbif.api.util;

import java.text.Normalizer;

import org.apache.commons.lang3.StringUtils;

/**
 * Utilities dealing with unicode strings
 */
public class UnicodeUtils {

    /**
     * Replaces all diacretics with their ascii counterpart.
     */
    public static String ascii(String x) {
        if (x == null) {
            return null;
        }
        // manually normalize characters not dealt with by the java Normalizer
        x = StringUtils.replaceChars(x, "øØðÐ", "oOdD");

        // use java unicode normalizer to remove accents and punctuation
        x = Normalizer.normalize(x, Normalizer.Form.NFD);
        x = x.replaceAll("\\p{M}", "");
        return x;
    }

    /**
     * Replaces all digraphs and ligatures with their underlying 2 latin letters.
     *
     * @param x the string to decompose
     */
    public static String decompose(String x) {
        if (x == null) {
            return null;
        }
        return x.replaceAll("æ", "ae")
                .replaceAll("Æ", "Ae")
                .replaceAll("œ", "oe")
                .replaceAll("Œ", "Oe")
                .replaceAll("Ĳ", "Ij")
                .replaceAll("ĳ", "ij")
                .replaceAll("ǈ", "Lj")
                .replaceAll("ǉ", "lj")
                .replaceAll("ȸ", "db")
                .replaceAll("ȹ", "qp")
                .replaceAll("ß", "ss")
                .replaceAll("ﬆ", "st")
                .replaceAll("ﬅ", "ft")
                .replaceAll("ﬀ", "ff")
                .replaceAll("ﬁ", "fi")
                .replaceAll("ﬂ", "fl")
                .replaceAll("ﬃ", "ffi")
                .replaceAll("ﬄ", "ffl");
    }
}